本文提出了一种基于离散小波变换(DWT)和机器学习分类器的癫痫检测方法。这里DWT已被用于特征提取,因为它提供了更好地分解了不同频带中的信号。首先,DWT已被应用于EEG信号以提取细节和近似系数或不同的子带。在提取系数之后,主成分分析(PCA)已经应用于不同的子带,然后使用特征级融合技术来提取低维特征空间中的重要特征。三个分类器即:支持向量机(SVM)分类器,K-Cirelte-邻(KNN)分类器和NAIVE Bayes(NB)分类器已用于分类EEG信号的工作中。该方法在Bonn数据库上进行了测试,并为KNN,SVM,NB分类器提供最多100%的识别精度。
translated by 谷歌翻译
In recent years several learning approaches to point goal navigation in previously unseen environments have been proposed. They vary in the representations of the environments, problem decomposition, and experimental evaluation. In this work, we compare the state-of-the-art Deep Reinforcement Learning based approaches with Partially Observable Markov Decision Process (POMDP) formulation of the point goal navigation problem. We adapt the (POMDP) sub-goal framework proposed by [1] and modify the component that estimates frontier properties by using partial semantic maps of indoor scenes built from images' semantic segmentation. In addition to the well-known completeness of the model-based approach, we demonstrate that it is robust and efficient in that it leverages informative, learned properties of the frontiers compared to an optimistic frontier-based planner. We also demonstrate its data efficiency compared to the end-to-end deep reinforcement learning approaches. We compare our results against an optimistic planner, ANS and DD-PPO on Matterport3D dataset using the Habitat Simulator. We show comparable, though slightly worse performance than the SOTA DD-PPO approach, yet with far fewer data.
translated by 谷歌翻译
We introduce M-VADER: a diffusion model (DM) for image generation where the output can be specified using arbitrary combinations of images and text. We show how M-VADER enables the generation of images specified using combinations of image and text, and combinations of multiple images. Previously, a number of successful DM image generation algorithms have been introduced that make it possible to specify the output image using a text prompt. Inspired by the success of those models, and led by the notion that language was already developed to describe the elements of visual contexts that humans find most important, we introduce an embedding model closely related to a vision-language model. Specifically, we introduce the embedding model S-MAGMA: a 13 billion parameter multimodal decoder combining components from an autoregressive vision-language model MAGMA and biases finetuned for semantic search.
translated by 谷歌翻译
Tumor segmentation in histopathology images is often complicated by its composition of different histological subtypes and class imbalance. Oversampling subtypes with low prevalence features is not a satisfactory solution since it eventually leads to overfitting. We propose to create synthetic images with semantically-conditioned deep generative networks and to combine subtype-balanced synthetic images with the original dataset to achieve better segmentation performance. We show the suitability of Generative Adversarial Networks (GANs) and especially diffusion models to create realistic images based on subtype-conditioning for the use case of HER2-stained histopathology. Additionally, we show the capability of diffusion models to conditionally inpaint HER2 tumor areas with modified subtypes. Combining the original dataset with the same amount of diffusion-generated images increased the tumor Dice score from 0.833 to 0.854 and almost halved the variance between the HER2 subtype recalls. These results create the basis for more reliable automatic HER2 analysis with lower performance variance between individual HER2 subtypes.
translated by 谷歌翻译
这项研究开发了一个无人驾驶系统(UASS)的框架,以监测高层建筑项目中未受保护的边缘和开口附近的跌落危险系统。开发并测试了一个三步基于机器学习的框架,以检测UAS捕获的图像的护栏柱。首先,对护栏探测器进行了培训,以定位支撑护栏的职位的候选位置。由于从实际的工作现场收集的此过程中使用了图像,因此确定了几个错误检测。因此,在以下步骤中引入了其他约束,以滤除错误检测。其次,研究团队将水平线检测器应用于图像,以正确检测地板并删除离地板不近的检测。最后,由于每个帖子之间安装了护栏柱,它们之间的分布差异大致,因此它们之间的空间被估算并用于找到两个帖子之间最有可能的距离。研究团队使用了开发方法的各种组合来监视高层建筑项目的捕获图像中的护栏系统。比较精度和召回指标表明,级联分类器通过落地检测和护栏间距估计来取得更好的性能。研究结果表明,拟议的护栏识别系统可以改善护栏的评估,并促进安全工程师确定高层建筑项目中跌落危害的任务。
translated by 谷歌翻译
“感应头”是注意力头,它实现了一种简单的算法来完成令牌序列,例如[a] [b] ... [a] - > [b]。在这项工作中,我们提供了一个假设的初步和间接证据,即诱导头可能构成大型大型变压器模型中所有“文本学习”中大多数的机制(即减少在增加代币指数时损失的损失)。我们发现,诱导头在与秘密学习能力突然急剧上的急剧上升的位置完全相同,这是训练损失的颠簸。我们提出了六种互补的证据,认为诱导头可能是任何大小的变压器模型中一般性内部学习的机理来源。对于仅关注的小型模型,我们提供了有力的因果证据。对于具有MLP的较大模型,我们提供相关证据。
translated by 谷歌翻译
我们提出了一种新的抽样策略,称为Smart Active Sapling,以在生产线之外进行质量检查。根据主动学习的原则,机器学习模型决定将哪些样品发送到质量检查。一方面,由于较早发现质量违规行为,这可以最大程度地减少废料零件的产生。另一方面,质量检查成本降低了,以进行平稳运行。
translated by 谷歌翻译
预测行人运动对于开发在拥挤的环境中相互作用的社会意识的机器人至关重要。虽然社交互动环境的自然视觉观点是一种自然的观点,但轨迹预测中的大多数现有作品纯粹是在自上而下的轨迹空间中进行的。为了支持第一人称视图轨迹预测研究,我们提出了T2FPV,这是一种构建高保真的第一人称视图数据集的方法,给定真实的,自上而下的轨迹数据集;我们在ETH/UCY行人数据集上展示了我们的方法,以生成所有互动行人的以自我为中心的视觉数据。我们报告说,原始的ETH/UCY数据集中使用的鸟眼视图假设,即代理可以用完美的信息观察场景中的每个人,而不会在第一人称视图中保持;在现有作品中通常使用的每个20个磁场场景中,只有一小部分的代理都可以完全看到。我们评估现有的轨迹预测方法在不同的现实感知水平下 - 与自上而下的完美信息设置相比,位移错误增加了356%。为了促进第一人称视图轨迹预测的研究,我们发布了T2FPV-ETH数据集和软件工具。
translated by 谷歌翻译
我们研究了一种新型的非参数基于基于纵向数据分析的基于非参数的聚类算法。该算法将天然立方花纹与高斯混合模型(GMM)相结合,可以产生光滑的簇,可以很好地描述基础数据。但是,算法中存在一些缺点:参数估计过程中的高计算复杂性和数值不稳定的方差估计器。因此,为了进一步提高该方法的可用性,我们合并了降低其计算复杂性的方法,我们开发了一种新的,更稳定的方差估计器,并开发了一种新的平滑参数估计过程。我们表明,就聚类和回归性能而言,开发的算法SMIX在合成数据集上的性能优于GMM。我们演示了计算加速器的影响,我们在新框架中正式证明了计算加速器。最后,我们通过使用SMIX来群集垂直大气测量来确定不同的天气状况。
translated by 谷歌翻译
3D牙齿分割是数字正畸技术的重要任务。已经提出了几种深度学习方法,用于从3D牙科模型或口腔内扫描中进行自动牙齿分割。这些方法需要注释的3D口内扫描。手动注释3D口腔内扫描是一项费力的任务。一种方法是设计自学方法来减少手动标签工作。与其他类型的点云数据(例如场景点云或形状点云数据)相比,3D牙齿点云数据具有非常规定的结构和强大的形状。我们查看可以从单个3D口内扫描中学到多少代表性信息。我们借助十种不同的方法来定量评估,其中六种是通用点云分割方法,而其他四种是特定于牙齿分割的方法。令人惊讶的是,我们发现,在单个3D口内扫描训练中,骰子得分可以高达0.86,而完整的训练组可得分为0.94。我们得出的结论是,分割方法可以从单个3D牙齿点云扫描中学习大量信息,例如数据增强。我们是第一个从单个3D口内扫描中进行定量评估并证明深度学习方法的表示能力的人。这可以通过最大程度地利用可用的数据来实现在极端数据限制方案下构建牙齿分割的自学方法。
translated by 谷歌翻译